並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 47件

新着順 人気順

Corpusの検索結果1 - 40 件 / 47件

Corpusに関するエントリは47件あります。 自然言語処理NLP機械学習 などが関連タグです。 人気エントリには 『プログラミング必須英単語600+ | プログラミング英語検定』などがあります。
  • プログラミング必須英単語600+ | プログラミング英語検定

    概要 プログラミングをする際には、APIリファレンスやソースコードのコメントなどを英語で読むことが求められます。場合によっては英語で関数名を付けたり、ちょっとしたマニュアルを書いたりする機会もあります。ただしプログラミング時に求められる英単語は、一般的な英語で求められる英単語とは異なります。 本必須英単語リストでは、プログラミング時に求められ、特に目にすることが多い英単語を以下のカテゴリーに分けて選定しています(注1)。プログラミング英語の学習や知識確認にご活用ください。

      プログラミング必須英単語600+ | プログラミング英語検定
    • プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll

      ラノベのタイトルみたいな記事を書く、という夢が叶いました。 github.com 開発に至った動機 以前から、アマチュアの小説はプロに比べると、描写不足な傾向があるのかもしれない、と思っていました。 特に不足がちだと感じるのは「時間」に関する描写です。 季節がわからなかったり、昼か夜か、平日か休日かみたいなことが不明瞭な作品が多い気がします。 しかし印象だけで語ってもアレなので、実際に差があるのかどうかを計測してみました。 計算式は、 時間描写の文の数 * 時間描写分布のエントロピー / 文の数 です。 「時間描写分布のエントロピー」というのは「全体を通じて、どれだけ満遍なく時間表現が書かれているか」という数字だと思ってください。 例えば時間描写が冒頭部にしかなかったりすると数値が小さくなり、全編を通じて満遍なく描写されていると、数値が大きくなります。 あと時間描写というのは、一応「季節、

        プロとアマの小説の特徴を数値化して比較してみたらやっぱり差があったので、それを埋めるための型付き小説記述用言語 TypeNovel を公開した件について - anti scroll
      • 現代英語の9割をカバーする基本英単語 NGSL(New General Service List)を7クリックで覚えるための新しい表

        Author:くるぶし(読書猿) twitter:@kurubushi_rm カテゴリ別記事一覧 新しい本が出ました。 読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定 累計200,000部(紙+電子) 2022/10/26 14刷決定 累計260,000部(紙+電子) 紀伊國屋じんぶん大賞2021 第3位 アンダー29.5人文書大賞2021 新刊部門 第1位 第2の著作です。 2017/11/20刊行、4刷まで来ました。 読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版 韓国語版 『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。 こちらは10刷

          現代英語の9割をカバーする基本英単語 NGSL(New General Service List)を7クリックで覚えるための新しい表
        • LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社

          LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に 従来の特化型言語モデルとは異なる、汎用型言語モデルを実現予定。 処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用 LINE株式会社(所在地:東京都新宿区、代表取締役社長:出澤剛)はNAVERと共同で、世界でも初めての、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表いたします。 超巨大言語モデル(膨大なデータから生成された汎用言語モデル)は、AIによる、より自然な言語処理・言語表現を可能にするものです。日本語に特化した超巨大言語モデル開発は、世界でも初めての試みとなります。 従来の言語モデルは、各ユースケース(Q&A、対話、等)に対して、自然言語処理エンジニアが個

            LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に | ニュース | LINE株式会社
          • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

            NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

              PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
            • Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita

              Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました 感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls

                Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
              • 「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る

                ビデオゲームの文化で「クソゲー」という極めて暴力的な単語が一般化してからどれくらいが経っただろうか。みうらじゅん氏が『いっき』に対して使ったなど起源には諸説あるが、ともかくその言葉は死滅せずに現代まで生きながらえてきた。 制作者が心血を注いで創りあげた一個のゲームという作品。それをたった一言で簡単に断罪できてしまうその言葉は、無残なほどにネガティブなパワーを持っており、ゲームメディアでは忌避すべきワードのひとつである。 しかし口をつぐんだところで、いままでプレイヤー間で何年にもわたり続いてきた「クソゲーを語る」という文化が、無かったものになるわけでもない。たった4文字でゲームを語ることができるこの魔法の言葉は、その時代や個々人の認識によって極めて定義が曖昧で、いまも万華鏡のように変化し続けている。 (画像はニコニコ動画「クソゲーオブザイヤー2008」より) そんな歴史の中、その年度で一番の

                  「クソゲー・オブ・ザ・イヤー」を一変させた『四八(仮)』ショックとはなんだったのか? “テキストの量的分析”からクソゲーの定義とレビューの変容を見る
                • 高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉

                  こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。 自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。 仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが

                    高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
                  • Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019

                    PyCon JP 2019 での発表スライドです。 GitHub: https://github.com/taishi-i/nagisa-tutorial-pycon2019

                      Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019
                    • 自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                      第1 はじめに 自然言語処理技術の発展に伴い、自然言語AIを利用したサービスが大変盛り上がっています。 たとえば、検索、要約、翻訳、チャットボット、文章の自動生成、入力補完などのサービスで、近いところで有名なのは、2020年にOpenAIが発表した「GPT-3」ですかね。これは約45TBにおよぶ大規模なテキストデータを学習し、あたかも人間が書いたような文章を自動で生成することが可能な自然言語モデルです。 【参考リンク】 自然言語処理モデル「GPT-3」の紹介 進化が止まらない自然言語処理技術ですが、事業者が自然言語AIを利用したサービス(*ここでは、データの処理がクラウド上で自動的に行われるサービスを前提とします)を提供する際に検討しなければならないことは、大きく分けると、学習済みモデルの構築フェーズの問題と、モデルを利用したサービス提供フェーズに関する問題に分かれます。 このうち、モデル

                        自然言語系AIサービスと著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                      • コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball

                        名著です,まじでオススメ 個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る 早速読みましたが,初版からのアップデートに加え元々の構成の良さに感激しました.*1 本の内容そのものの解説は, 著者である加藤さんのエントリー @iktakahiroさんの感想エントリー をご覧いただくとして*2,このエントリーでは, Webクローリングとスクレイピングはコワクナイヨ! っていう話をルール・ノウハウという「お作法」の面でポエムしたいと思います. TL;DR インターネットおよび, リアル(現実世界)に迷惑

                          コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball
                        • AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita

                          はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea

                            AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
                          • 今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ

                            ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP界隈の概観 1. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems 面白いと思った点 2. Errudite: Scalable, Reproducible, and Testable Error Analysis 面白いと思った点 3. Language Models as Knowledge Bases? 面白いと思った点 余談 4. A Structural Probe for Finding Syntax in Word

                              今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ
                            • SKELL

                              v1.11.5

                              • BERTで英検を解く - Qiita

                                英検の大問1は、短文穴埋め問題になっています。例えば、こういう問題です。 My sister usually plays tennis (   ) Saturdays. 1. by  2. on  3. with  4. at Bob (   ) five friends to his party. 1. made  2. visited  3. invited  4. spoke 文の中の隠された部分に入るものを、選択肢の中から答える問題です。文法的な判断もあれば、文脈から意味の通りが良い単語を選ぶ問題もあります。5級から1級まですべての難易度で出題される形式です。 この問題形式は、BERT (Bidirectional Encoder Representations from Transformers)の学習アルゴリズム(のうちの1つ)とよく似ています。ということは、事前学習済みのBE

                                  BERTで英検を解く - Qiita
                                • ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita

                                  ざっくり理解する分散表現, Attention, Self Attention, Transformer機械学習DeepLearningAttentionbertTransformer はじめに 自己紹介 : Pythonでデータ分析とかNLPしてます。 Attention, Self Attention, Transformerを簡単にまとめます。 間違いがあったらぜひコメントお願いします。 モチベーション BERT(Google翻訳で使われてる言語モデル)を理解したい。 BERT : 双方向Transformerを用いた言語モデル。分散表現を獲得でき、様々なタスクに応用可能。 Transformer : Self Attentionを用いたモデル。CNNとRNNの進化系みたいなもの。 Self Attention : Attentionの一種。 Attention : 複数個の入力の内

                                    ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita
                                  • Shinnosuke Takamichi (高道 慎之介) - jvs_corpus

                                    This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut

                                      Shinnosuke Takamichi (高道 慎之介) - jvs_corpus
                                    • 言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita

                                      はじめに 自然言語処理の基礎を楽しく学べる問題集として長らく親しまれてた言語処理100本ノック、その2020年版が4/6に公開されました!これは5年振りの改訂です。 2015年版をやったけど興味ある人、15年版のQiita記事が役立たなくなって残念に思ってる人、15年版を途中までやってたけど20年版が出て心が折れそう、という人のために、どこが変わったのかをまとめていきます。もちろん非公式なので変更箇所の見逃し等はあるかもしれません。 改訂の概要 4/7現在、公式の更新履歴によると、次の3点が大きく変わったようです。 深層ニューラルネットワークに関する問題を追加 第8, 9, 10章が全て新規に作成された問題になっている 英語版の公開(39番まで) 40番以降も順次公開予定とのこと(著者Twitter) 旧第6章(英語テキストの処理)が英語版に移動 該当する英語版は未公開。作成中のようだ(G

                                        言語処理100本ノック2020年版が公開!どこが変わったの? - Qiita
                                      • 中俣尚己の日本語チャンネル

                                        日本語学の研究者、中俣尚己によるチャンネルです。しばらくは、拙著『「中納言」を活用したコーパス日本語研究入門』をベースにしたコーパスの解説動画をアップする予定です。

                                          中俣尚己の日本語チャンネル
                                        • テーブルデータ向けの自然言語特徴抽出術

                                          例としてあげるデータは全て、atmaCup#10のものです。また、この記事の内容はこちらのノートブックで実験を行っています。 データの例。'title'、'description'など自然言語を含むカラムが存在する。 参考: 自然言語処理におけるEmbeddingの方法一覧とサンプルコード Bag of Wordsベースの手法 文書をトークンの集合として扱う手法です。トークンとしてはよく単語が選ばれますが、自分でtokenizerを設定して文章を単語以外のtokenの集合として扱うこともできます。また、日本語などの言語においてはトークン化が自明でないため、MeCabなどを用いてトークン化することがかなり多いです。 コラム MeCabを用いたトークン化

                                            テーブルデータ向けの自然言語特徴抽出術
                                          • 現代日本語書き言葉均衡コーパス検索システム (BCCWJ):Version 1.1

                                            • 日本語対話コーパス一覧

                                              日本語対話コーパス一覧 これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。 本リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、愛知工業大学 徳久 良子さんにご協力をいただき、水上雅博が作成いたしました(所属はリスト作成または更新時のものです)。 もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。 対話コーパス 主に人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。 名前 データ量 形式 研究利用 商用利用 概要

                                              • CC-100: Monolingual Datasets from Web Crawl Data

                                                This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b

                                                • JParaCrawl

                                                  License JParaCrawl and the trained models are distributed under the following license. For commercial use, please contact us. Terms of Use for Bilingual Data, Monolingual Data and Trained Models Nippon Telegraph and Telephone Corporation (Hereinafter referred to as "our company".) will provide bilingual data, monolingual data and trained models (Hereinafter referred to as "this data.") subject to

                                                  • じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関

                                                    より良い顧客体験を生み出すには、カスタマーに好評を博したサービスや製品の特徴や要因を知る必要があります。Megagon Labs Tokyo は旅行情報サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったJapanese Realistic Textual Entailment Corpus (以下JRTEコーパス)を開発し、日本語自然言語処理における学術コミュニティ向けに公開しました。本記事ではJRTEコーパスと、利用例として簡単な機械学習を紹介します。 オンラインサービスにおけるクチコミは、サービスや製品の利用を検討しているユーザには不可欠な存在です。土地勘のない地域がどのような特徴をもっているか、初めて利用する施設のどのような点が他者から好評を博しているかといった知識があれば、私たちは納得して選べるように

                                                      じゃらんnetに投稿された宿クチコミを用いた感情極性分析・含意関係認識の一例 - Megagon Labs | リクルート AI研究機関
                                                    • Z会、英語スピーキングの採点をAIで自動化へ 公正な採点を低コストで実現する狙い

                                                      Z会と、教育ITシステムなどを手掛けるEdulab(東京都渋谷区)は9月10日、AIを活用して英語のスピーキングテストを自動採点する技術の共同研究を始めたと発表した。 約8000人が受験するZ会の「英語CAN-DOテスト」で集まった数万点の音声データと評価データを活用。EdulabのAIを使った自動採点技術を組み合わせ、受験者が話した英語を自動採点する技術の研究開発を進める。 開発の背景には、学習指導要領の改訂や、大学入試センター試験が大学入学共通テストに変わる大学入試改革がある。グローバル化が進む中で、読み書きだけでなく「話す」「聞く」などの技能も教育で重要視するようになったが、話す技能の測定には人件費がかかるうえ、評価する人によって測定結果にばらつきが出るなどの懸念もある。 関連記事 英検の採点にAI ライティング・スピーキングも自動採点 英検のライティングとスピーキング試験に、AIに

                                                        Z会、英語スピーキングの採点をAIで自動化へ 公正な採点を低コストで実現する狙い
                                                      • GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus

                                                        This is a Japanese text corpus that consists of lead three sentences of web documents with various linguistic annotations. By collecting lead three sentences of web documents, this corpus contains documents with various genres and styles, such as news articles, encyclopedic articles, blogs and commercial pages. It comprises approximately 5,000 documents, which correspond to 15,000 sentences. The l

                                                          GitHub - ku-nlp/KWDLC: Kyoto University Web Document Leads Corpus
                                                        • 数式抜きでWord2vecを話す

                                                          社内勉強用の資料です。 フォローお願いします。https://twitter.com/Ishitonton

                                                            数式抜きでWord2vecを話す
                                                          • 学術/TOEIC/ビジネス英文の9割を理解する単語リストを7クリックで学習する3つの表(その3)

                                                            Author:くるぶし(読書猿) twitter:@kurubushi_rm カテゴリ別記事一覧 新しい本が出ました。 読書猿『独学大全』ダイヤモンド社 2020/9/29書籍版刊行、電子書籍10/21配信。 ISBN-13 : 978-4478108536 2021/06/02 11刷決定 累計200,000部(紙+電子) 2022/10/26 14刷決定 累計260,000部(紙+電子) 紀伊國屋じんぶん大賞2021 第3位 アンダー29.5人文書大賞2021 新刊部門 第1位 第2の著作です。 2017/11/20刊行、4刷まで来ました。 読書猿 (著) 『問題解決大全』 ISBN:978-4894517806 2017/12/18 電書出ました。 Kindle版・楽天Kobo版・iBooks版 韓国語版 『문제해결 대전』、繁体字版『線性VS環狀思考』も出ています。 こちらは10刷

                                                              学術/TOEIC/ビジネス英文の9割を理解する単語リストを7クリックで学習する3つの表(その3)
                                                            • ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita

                                                              ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT)MachineLearningDeepLearningword2vecbertELMo 自己紹介 単語の分散表現について簡単にまとめました。 自己紹介:Pythonでデータ分析とかNLPとか異常検知とかしてます。 質問やツッコミなど有りましたらぜひコメント下さい! モチベーション 自然言語をコンピュータに認識させるために数値化する必要が有ります。 「文の数値表現」と「単語の数値表現」があり、今回は後者にフォーカスして紹介します。 後者のうち、1単語を低い(数百程度の)次元のベクトルで表現したものを「分散表現」といいます。 分散表現にすることで以下の効果があります。 省計算量 省メモリ 意味をエンコード可 手法によっては文脈をエンコード可(多義語を理解させられる) 用語説明 : 「自然言

                                                                ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita
                                                              • 例文買取センター

                                                                買取成立した例文(基本的に平日の買取業務は朝の9時台です) (買取成立日:5月5日)【支障をきたす】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【支障が出る】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【グローバル】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月5日)【インターナショナル】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【ハッカー】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【クラッカー】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【改良の余地】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日:5月4日)【改善の余地】の赤枠例文を1例文25円で買い取らせて頂きました! (買取成立日

                                                                • 【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし

                                                                  みなさんこんにちは!FOLIOアドベントカレンダーの8日目の記事です! 昨日は弊社の顧客基盤部でバックエンドエンジニアをされているmsawadyさんによる記事でした! 8日目の本記事は、FOLIO金融戦略部でコンテンツの編集&執筆をおこなっています設楽がお届けします。 この記事の目的・初心者向けに、Pythonを使ったデータ分析(自然言語処理)の初歩の初歩を伝える記事。 読者対象・Python初心者。データ分析初心者 ・アンケートとか顧客の声を分析してみたいと考えている人 私ですが、普段は弊社サービスを使って頂いているユーザー様向けに、投資や資産運用に関するいろいろな記事を執筆、編集しているという、データ分析とかプログラミングとは全然関係ない業務をおこなっています。 今回は、お客様から回答頂いているアンケートを使い、サービスがもっと良くなるためのヒントや、お客様がどういう点に困っていたり悩

                                                                    【超初心者向け】Pythonで顧客のアンケートデータを自然言語処理してみた|半蔵門と調布あたりで働く、編集者のおはなし
                                                                  • OSCAR

                                                                    Open Source Project on Multilingual Resources for Machine Learning The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open Source project aiming to provide web-based multilingual resources and datasets for Machine Learning (ML) and Artificial Intelligence (AI) applications. The project focuses specifically in providing large quantities of unannotated raw data that is commonly use

                                                                      OSCAR
                                                                    • 「Go Toトラベル」という英語では使われない表現が日本で使われるのはなぜですか - ことばの疑問 - ことば研究館

                                                                      2020年の流行語のひとつに「Go Toトラベル」があります。これは英語では使われない表現だと聞いたのですが、そうなのでしょうか。そうだとすれば、どうしてそのような言い方が日本語として使われるのでしょうか。 「Go Toトラベルキャンペーン」が話題になっています。ここではどうして、「英語では使われないのでは」という質問の出るような表現が生まれ、また受け入れられているのか、その背景を、日英語対照研究の観点から考えてみたいと思います。 「Go To トラベルキャンペーン」は、「Go To キャンペーン」の1つで、ほかに「Go To イートキャンペーン」、「Go To イベントキャンペーン」などがあります。これを英語の表現として考えた場合、go to eat  ならto は不定詞のto、go to  events なら前置詞のto です。用法は違いますが、同じto だからということで、まとめてG

                                                                        「Go Toトラベル」という英語では使われない表現が日本で使われるのはなぜですか - ことばの疑問 - ことば研究館
                                                                      • 株式会社レトリバ

                                                                        2021.3.15 レトリバと国立国語研究所の共同研究成果 「日本語話し言葉コーパス(CSJ)を用いた日本語話し言葉BERT」を公開 コールセンターの音声認識結果を使用した対話要約などの精度向上に貢献 株式会社レトリバ(本社:東京都新宿区、代表取締役 河原一哉、以下レトリバ)は、このたび大学共同利用機関法人人間文化研究機構国立国語研究所(以下国語研)との共同研究成果の「日本語話し言葉コーパス(Corpus of Spontaneous Japanese、以下CSJ) ※1 を用いた 日本語話し言葉BERT」※2を新たに公開します。 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれる事前学習モデルが盛んに研究されています。 日本語では、WikipediaデータやSNSデータを事前学習

                                                                          株式会社レトリバ
                                                                        • データベース | 中俣尚己Webサイト

                                                                          『文法コロケーションハンドブックE』 これは何ですか? 2014年の『日本語教育のための文法コロケーションハンドブック』と同じスタイルで、様々な中上級の文法項目をコーパスのデータをもとに記述していくスタイルです。最大の特徴は、中俣の執筆した教材を使ってコーパスの使い方を学んだ大学院生の手によって記述されているということです。(全項目、中俣が監修しています。)まずはPDF版にて公開。今後、他の形態での拡大も視野に入れています。 利用方法 以下より最新版のPDFをダウンロードしてください。 文法コロケーションハンドブックE Ver.2024.4 日本語話題別会話コーパス: J-TOCC 『日本語話題別会話コーパス:J-TOCC』の概要 『日本語話題別会話コーパス:J-TOCC』は話題を固定し、各話題について等しい時間の、親しい大学生どうしの1対1会話を録音、文字化したコーパスです。15話題につ

                                                                          • デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催

                                                                            デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催AIのビジネス活用・企業におけるDX/UX・LINEの最新AI技術など、全12セッションをオンラインで配信 LINE株式会社 AIカンパニー(本社:東京都新宿区、カンパニーCEO:砂金 信一郎)は、LINEのAI事業「LINE CLOVA」に関するカンファレンス『LINE AI DAY 2021』を7月15日(木)に開催しましたので、お知らせいたします。 イベント公式ページ:https://clova.line.me/lineaiday2021/ 「LINE AI DAY 2021」は、「これからのあたりまえ」となるデジタル化社会の未来を描くカンファレンスです。 本カンファレンスでは、各業界の最前線で「これからのあたりまえ」の実現に向けて取り組むキーパーソンが多数登壇し、AIのビジネス活用

                                                                              デジタル化社会の「これからのあたりまえ」を描くカンファレンス「LINE AI DAY 2021」を開催
                                                                            • 自然言語処理の必須知識!Word2Vec とは?

                                                                              Word2Vec とは Word2Vec は自然言語を数ベクトルで表現する手法の一つです。中でも、Word2Vec は単語をベクトルで表現する手法です。下図はそのイメージです。 テキストにベクトル表現を対応づける より正確には、Word2Vec は Mikolov らが 2013 年の論文 (Efficient Estimation of Word Representations in Vector Space, ベクトル空間における単語の表現の効率的推定, https://arxiv.org/abs/1301.3781) で発表した一連の手法です。 モデルとして CBoW 、Skip-Gram の二種類、最適化戦略として階層的ソフトマックス、負例サンプリングの二種類を含みます(この記事では詳しい説明を省略します)。 「単語がベクトル空間で表現される」というのはイメージが湧きにくいかもしれ

                                                                              • Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understa

                                                                                Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

                                                                                  Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understa
                                                                                • Experiments_on_RCQA

                                                                                  東北大 乾・鈴木研究室が公開している解答可能性付き読解データセットを利用し、既に公開されている利用可能な日本語BERTモデルとNICTが公開する2つの日本語BERTモデルの比較実験を行いました。解答可能性付き読解データセットに含まれる56,651件の質問・解答・文書の組に対して付与された「文書の読解によって質問に答えることができるかどうか」のスコアが2以上の事例から正解を抽出し、それ以外の事例は正解無しとして、与えられた質問に対して文書中から回答となる単語列の特定を行い、参考文献と同様に正解との完全一致の割合(EM)と正解の単語列に対する再現率と精度から求められるF1スコアの平均(F1)の2つの評価尺度で結果を比較しました。(ただし、訓練・開発・テストの分割等、実験設定の詳細は必ずしも参考文献とは一致していません) NICTが公開するモデルとの比較に利用したBERT事前学習モデルは下記の6

                                                                                  新着記事